(网经社讯)8月7日消息,小红书hi lab(人文智能实验室)开源了其首款多模态大模型dots.vlm1,这一模型基于DeepSeek V3打造,并配备了由小红书自研的12亿参数视觉编码器NaViT,具备多模态理解与推理能力。
在主要的视觉评测集上,dots.vlm1的整体表现已接近当前领先模型,如Gemini 2.5 Pro与Seed-VL1.5 thinking,尤其在MMMU、MathVision、OCR Reasoning等多个基准测试中显示出较强的图文理解与推理能力。
据网经社云计算台(CC.100EC.CN)了解,这一模型可以看懂复杂的图文交错图表,理解表情包背后的含义,分析两款产品的配料表差异,还能判断博物馆中文物、画作的名称和背景信息。
在主流视觉评测数据集上,dots.vlm1的整体性能已逼近当前处于领先地位的Gemini2.5Pro和Seed-VL1.5thinking模型。特别是在MMMU、MathVision、OCRReasoning等多个基准测试中,它展现出极具竞争力的成果,充分彰显了其出色的图文理解与推理能力。
在AIME、GPQA、LiveCodeBench等典型文本推理任务中,dots.vlm1的表现与DeepSeek-R1-0528大致相当。这表明它在数学和代码能力方面已具备一定的通用性,但在GPQA等涵盖范围更广的推理任务上,仍存在明显差距。
综合而言,dots.vlm1在视觉多模态能力上已接近当前最佳水平,文本推理能力也达到了主流模型的标准。不过,在部分细分任务中,它与最优结果仍有一定距离,未来还需在架构设计和训练数据两方面进行进一步优化。